Google ने वेब और मोबाइल इंटरफ़ेस को नियंत्रित करने के लिए Gemini 2.5 कंप्यूटर उपयोग मॉडल पेश किया
Google Unveils Gemini 2.5 Computer Use Model to Automate Web and Mobile Tasks
Google ने वेब और मोबाइल इंटरफ़ेस को नियंत्रित करने के लिए Gemini 2.5 कंप्यूटर उपयोग मॉडल पेश किया
Google ने Gemini 2.5 कंप्यूटर उपयोग मॉडल का अनावरण किया है, जो एक अभूतपूर्व AI सिस्टम है जो कंप्यूटर इंटरफ़ेस के साथ सीधे इंटरैक्ट करने में सक्षम है। उन्नत Gemini 2.5 Pro की दृश्य समझ और तर्क क्षमताओं पर आधारित, यह मॉडल AI एजेंटों को क्लिक करने, टाइप करने, स्क्रॉल करने और वेबसाइटों पर नेविगेट करने जैसी क्रियाएँ करने में सक्षम बनाता है - जो वास्तविक मानव कंप्यूटर उपयोग की नकल करता है।
यह नया मॉडल अब Google AI स्टूडियो और Vertex AI में Gemini API के माध्यम से उपलब्ध है, जो डेवलपर्स को कार्यों को स्वचालित करने और उत्पादकता बढ़ाने का एक शक्तिशाली तरीका प्रदान करता है।
यह कैसे काम करता है
Google के अनुसार, Gemini 2.5 कंप्यूटर उपयोग मॉडल, Gemini API के भीतर नए computer_use टूल के माध्यम से संचालित होता है और एक पुनरावृत्त लूप में कार्य करता है। इनपुट में उपयोगकर्ता का आदेश, वर्तमान इंटरफ़ेस का स्क्रीनशॉट और हाल की क्रियाओं का रिकॉर्ड शामिल होता है। डेवलपर्स विशिष्ट UI क्रियाओं को प्रतिबंधित या अनुकूलित करके उपयोग को और बेहतर बना सकते हैं।
मॉडल को ये इनपुट मिलने के बाद, यह उनका विश्लेषण करता है और एक फ़ंक्शन कॉल के साथ प्रतिक्रिया देता है—उदाहरण के लिए, किसी बटन पर क्लिक करना या टेक्स्ट टाइप करना। खरीदारी जैसे ज़्यादा जोखिम वाले कार्यों के लिए उपयोगकर्ता की पुष्टि की आवश्यकता हो सकती है। इसके बाद क्लाइंट उस क्रिया को निष्पादित करता है, सिस्टम को एक नए स्क्रीनशॉट और URL के साथ अपडेट करता है, और लूप को फिर से शुरू करता है। यह प्रक्रिया तब तक जारी रहती है जब तक कि असाइन किया गया कार्य पूरा नहीं हो जाता, कोई त्रुटि उत्पन्न नहीं हो जाती, या उपयोगकर्ता/सुरक्षा रोक नहीं लग जाती।
हालांकि वर्तमान में वेब ब्राउज़र के लिए अनुकूलित है, Google का कहना है कि यह मॉडल मोबाइल UI नियंत्रण के लिए आशाजनक क्षमता दिखाता है, लेकिन इसे अभी तक पूर्ण डेस्कटॉप ऑपरेटिंग सिस्टम नियंत्रण के लिए डिज़ाइन नहीं किया गया है। तकनीकी दिग्गज ने यह भी बताया कि जेमिनी 2.5 कंप्यूटर यूज़ उद्योग में अग्रणी प्रदर्शन और न्यूनतम विलंबता प्रदान करता है, जिसे ऑनलाइन-माइंड2वेब बेंचमार्क के लिए ब्राउज़रबेस हार्नेस पर मापा जाता है।